智能论文笔记

Automated Identification of Toxic Code Reviews Using ToxiCR

Jaydeb Sarker , Asif Kamal Turzo , Ming Dong , Amiangshu Bosu

分类：自然语言处理 | 机器学习

2022-02-26

软件开发互动期间的有毒对话可能会对免费开源软件（FOSS）开发项目产生严重影响。例如，有毒对话的受害者可能会害怕表达自己，因此会丧失自己的动力，并最终可能离开该项目。自动过滤有毒的对话可能有助于福斯社区保持其成员之间的健康互动。但是，现成的毒性探测器在软件工程（SE）数据集上的表现较差，例如从代码审查评论中策划的一个。为了遇到这一挑战，我们提出了毒性，这是一种基于学习的基于学习的毒性识别工具，用于代码审查互动。有毒物质包括选择一种监督学习算法之一，选择文本矢量化技术，八个预处理步骤以及一个大规模标记的数据集，其中包括19,571个代码评论评论。在这八个预处理步骤中，有两个是特定于SE域。通过对预处理步骤和矢量化技术的各种组合的模型进行严格的评估，我们已经确定了数据集的最佳组合，可提高95.8％的精度和88.9％的F1得分。毒性明显优于我们数据集中的现有毒性探测器。我们已发布了数据集，预处理的模型，评估结果和源代码，网址为：https：//github.com/wsu-seal/toxicr

translated by 谷歌翻译

Generalizable Natural Language Processing Framework for Migraine Reporting from Social Media

Yuting Guo , Swati Rajwal , Sahithi Lakamana , Chia-Chun Chiang , Paul C. Menell , Adnan H. Shahid , Yi-Chieh Chen , Nikita Chhabra , Wan-Ju Chao , Chieh-Ju Chao

分类：自然语言处理

2022-12-23

Migraine is a high-prevalence and disabling neurological disorder. However, information migraine management in real-world settings could be limited to traditional health information sources. In this paper, we (i) verify that there is substantial migraine-related chatter available on social media (Twitter and Reddit), self-reported by migraine sufferers; (ii) develop a platform-independent text classification system for automatically detecting self-reported migraine-related posts, and (iii) conduct analyses of the self-reported posts to assess the utility of social media for studying this problem. We manually annotated 5750 Twitter posts and 302 Reddit posts. Our system achieved an F1 score of 0.90 on Twitter and 0.93 on Reddit. Analysis of information posted by our 'migraine cohort' revealed the presence of a plethora of relevant information about migraine therapies and patient sentiments associated with them. Our study forms the foundation for conducting an in-depth analysis of migraine-related information using social media data.

translated by 谷歌翻译

ConnectedUNets++: Mass Segmentation from Whole Mammographic Images

Prithul Sarker , Sushmita Sarker , George Bebis , Alireza Tavakkoli

分类：计算机视觉 | 机器学习

2022-10-25

Deep learning has made a breakthrough in medical image segmentation in recent years due to its ability to extract high-level features without the need for prior knowledge. In this context, U-Net is one of the most advanced medical image segmentation models, with promising results in mammography. Despite its excellent overall performance in segmenting multimodal medical images, the traditional U-Net structure appears to be inadequate in various ways. There are certain U-Net design modifications, such as MultiResUNet, Connected-UNets, and AU-Net, that have improved overall performance in areas where the conventional U-Net architecture appears to be deficient. Following the success of UNet and its variants, we have presented two enhanced versions of the Connected-UNets architecture: ConnectedUNets+ and ConnectedUNets++. In ConnectedUNets+, we have replaced the simple skip connections of Connected-UNets architecture with residual skip connections, while in ConnectedUNets++, we have modified the encoder-decoder structure along with employing residual skip connections. We have evaluated our proposed architectures on two publicly available datasets, the Curated Breast Imaging Subset of Digital Database for Screening Mammography (CBIS-DDSM) and INbreast.

translated by 谷歌翻译

Towards Human-Compatible XAI: Explaining Data Differentials with Concept Induction over Background Knowledge

Cara Widmer , Md Kamruzzaman Sarker , Srikanth Nadella , Joshua Fiechter , Ion Juvina , Brandon Minnery , Pascal Hitzler , Joshua Schwartz , Michael Raymer

分类：人工智能

2022-09-27

概念诱导是基于正式的逻辑推理在描述逻辑上的，已在本体工程中使用，以从基本数据（ABOX）图创建本体（Tbox）公理。在本文中，我们表明它也可以用来解释数据差异，例如在可解释的AI（XAI）的背景下，我们表明它实际上可以以对人类观察者有意义的方式进行。我们的方法利用了从Wikipedia类别层次结构策划的大型层次结构，作为背景知识。

translated by 谷歌翻译

A Prospective Approach for Human-to-Human Interaction Recognition from Wi-Fi Channel Data using Attention Bidirectional Gated Recurrent Neural Network with GUI Application Implementation

Md. Mohi Uddin Khan , Abdullah Bin Shams , Md. Mohsin Sarker Raihan

分类：机器学习 | 人工智能 | (统计)机器学习

2022-02-16

5G无线技术和社会经济转型的最新进展带来了传感器应用的范式转移。 Wi-Fi信号表明其时间变化与身体运动之间存在很强的相关性，可以利用这些变化来识别人类活动。在本文中，我们证明了基于时间尺度Wi-Fi通道状态信息的自由互助人与人类相互作用识别方法的认知能力。所检查的共同活动是稳定的，接近，离职的，握手的，高五，拥抱，踢（左腿），踢（右腿），指向（左手），指向（右手），拳打（左手），打孔（右手）和推动。我们探索并提出了一个自我发项的双向封盖复发性神经网络模型，以从时间序列数据中对13种人类到人类的相互作用类型进行分类。我们提出的模型可以识别两个主题对相互作用，最大基准精度为94％。这已经扩展了十对对象，该对象对围绕交互 - 转变区域的分类得到了改善，从而确保了88％的基准精度。同样，使用PYQT5 Python模块开发了可执行的图形用户界面（GUI），以实时显示总体相互交流识别过程。最后，我们简要地讨论了有关残障的可能解决方案，这些解决方案导致了研究期间观察到的缩减。这种Wi-Fi渠道扰动模式分析被认为是一种有效，经济和隐私友好的方法，可在相互的人际关系识别中用于室内活动监测，监视系统，智能健康监测系统和独立的辅助生活。

translated by 谷歌翻译

Unifying Epidemic Models with Mixtures

Arnab Sarker , Ali Jadbabaie , Devavrat Shah

分类： (统计)机器学习 | 机器学习

2022-01-07

Covid-19大流行强调了对疫情模型的强大了解的需要。目前的流行模型被归类为机械或非机械方式：机械模型对疾病的动态作出明确的假设，而非机械模型对观察时间序列的形式做出假设。在这里，我们介绍了一种简单的混合模型，该模型桥接两种方法，同时保持两者的益处。该模型表示作为高斯曲线的混合的情况和死亡率的时间序列，提供灵活的函数类，与传统的机制模型相比从数据中学习。虽然该模型是非机械的，但我们表明它是基于网络SIR框架的随机过程的自然结果。这允许学习参数与类似的非机械模型相比，使用更有意义的解释，并且我们使用在Covid-19流行期间收集的辅助移动性数据来验证解释。我们提供了一种简单的学习算法来识别模型参数并建立显示模型可以从数据有效学习模型的理论结果。凭经验，我们发现模型具有低预测误差。该模型可在CovidPredictions中提供.Mit.edu。最终，这使我们能够系统地了解干预措施对Covid-19的影响，这对于开发数据驱动的解决方案来控制流行病的解决方案至关重要。

translated by 谷歌翻译

Autonomous Navigation System from Simultaneous Localization and Mapping

Micheal Caracciolo , Owen Casciotti , Christopher Lloyd , Ernesto Sola-Thomas , Matthew Weaver , Kyle Bielby , Md Abdul Baset Sarker , Masudul H. Imtiaz

分类：机器人 | 计算机视觉

2021-12-14

本文介绍了同时定位和基于映射的自主导航系统的开发。本研究的动机是寻找一个自主导航内部空间的解决方案。内部导航是挑战，因为它可以永远发展。解决这个问题是众多服务，如清洁，卫生行业和制造业。本文的重点是为此提出的自主系统开发的基于奴役的软件架构的描述。评估了该系统的潜在应用，以智能轮椅为导向。当前的内部导航解决方案需要某种引导线，就像地板上的黑线一样。通过这种提出的解决方案，内部不需要装修以适应该解决方案。此应用程序的源代码已成为开源，以便可以为类似的应用重新饰。此外，该开源项目被设想通过广泛的开源社区在其当前状态后得到改善。

translated by 谷歌翻译

Prediction Model for Mortality Analysis of Pregnant Women Affected With COVID-19

Quazi Adibur Rahman Adib , Sidratul Tanzila Tasmi , Md. Shahriar Islam Bhuiyan , Md. Mohsin Sarker Raihan , Abdullah Bin Shams

分类：机器学习 | 人工智能

2021-11-22

Covid-19 Pandemic是一个持续的全球大流行，这导致了公共卫生部门和全球经济中的前所未有的中断。病毒，SARS-COV-2负责冠状病毒病的快速传播。由于其传染性，病毒可以容易地感染不受保护和暴露的个体，从轻度到严重症状。对怀孕母亲和新生儿的病毒效应的研究现在是平民和公共卫生工作者在全球范围内的关于病毒如何影响母亲和新生儿健康的问题。本文旨在制定一种预测模型，以估算基于记录的症状的携带型患者死亡的可能性：呼吸困难，咳嗽，鼻子，关节痛和肺炎的诊断。我们研究中使用的机器学习模型是支持向量机，决策树，随机林，渐变升压和人工神经网络。该模型提供了令人印象深刻的结果，可以准确地预测给定输入的怀孕母亲的死亡率。3型号（ANN，渐变升压，随机林）的精度率为100％，最高精度得分（梯度提升，ANN）是95 ％，最高召回（支持向量机）为92.75％，最高F1得分（梯度提升，ANN）为94.66％。由于模型的准确性，怀孕的母亲可以基于其由于病毒而导致的可能性即时治疗。全球卫生工人可以利用该模型列出急诊患者，最终可以降低Covid-19诊断患者的死亡率。

translated by 谷歌翻译

BNLP: Natural language processing toolkit for Bengali language

Sagor Sarker

分类：自然语言处理

2021-01-31

BNLP是一个开源语言处理工具包，用于孟加拉语语言，包括标记化，Word嵌入，POS标记，Ner标记设施。BNLP提供了预先训练的模型，具有高精度，可以进行基于模型的旋钮化，嵌入，POS标记，孟加拉语语言的标记任务。BNLP预先训练的模型在孟加拉文本标记，Word Embedding，POS标记和NER标记任务中实现了显着的结果。BNLP在孟加拉研究社区中广泛使用16K下载，119颗星和31叉。BNLP可在https://github.com/sagorbrur/bnlp获得。

translated by 谷歌翻译